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摘要 : [目的 /意义 ] 从 地 方 名 人 文献 资源 建设 现状 出 发 ， 通 过 数字 人 文 视 角 探 究 地 方 名 人 多 源 异 构 
资源 知识 组 织 与 关联 方案 ， 为 GLAM 机 构 开 展 地 方 人 物 知 识 管理 与 服务 提供 借鉴 。[ 方法 /过 程 ] 参照 国 
内 外 相关 名 人 资源 开发 思路 ， 提 出 一 套 包 含 异 构 文献 资源 内 容 整 理 、 地 方 名 人 资源 本 体 构建 、 实 体 与 实体 
关系 融合 和 地 方 名 人 资源 知识 应 用 等 四 步骤 的 地 方 名 人 资源 知识 组 织 方案 ， 并 结合 地 方 名 人 文献 资源 特征 
与 人 物资 源 描述 框架 自 建 了 地 方 名 人 文献 本 体 模 型 CLO。[ 结果 /结论 ] 以 湘西 诗人 田 名 瑜 及 其 手稿 《车 
学 斋 日 记 》 为 依托 ,按照 组 织 步骤 并 运用 Protégé 工具 实现 地 方 名 人 及 其 日 记 作 品 的 知识 组 织 与 关联 揭示 ， 
验证 此 套 组 织 方案 的 可 行 性 与 可 操作 性 ， 在 拓宽 地 方 文献 开发 视角 的 同时 也 为 民族 地 区 名 人 知识 库 的 搭建 


与 特色 人 文 服务 的 开展 提供 借鉴 。 
关键 词 ， 数字 人 文 名 人 文献 知识 组 织 
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如 今 ， 数 字 人 文 作为 智能 技术 与 人 文学 科 
的 关键 枢纽 ， 其 涉及 的 自然 语言 处 理 、 时 空 信 
息 揭示 、 多 维 知 识 共 现 等 知识 组 织 与 发 现 手段 
能 够 有 效 推动 新 文科 建设 进程 ， 其 前 沿 应 用 实 
例 也 一 直 是 各 领域 资源 开发 机 构 与 相关 学 者 关 


注 的 要 点 中。 而 地 方 名 人 文献 资源 作为 特定 时 
期 与 地 域 文化 、 艺 术 、 经 济 与 政治 演化 的 文字 
载体 ， 既 是 解读 地 域 文 人 思潮 、 探 究 地 方 历史 
变 草 与 塑造 地 方 文化 形象 的 重要 资料 ， 也 是 揭 
示 地 方 社会 生活 演变 、 特 色 民 俗 技 艺 、 名 人 交 
际 网 络 、 经 济 发 展 脉络 、 政 治 交替 轨迹 和 地 缘 
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<= 
变动 局 势 的 记忆 宝库 外 。 当 前， 在 数字 人 文 技 
术 的 加 持 下 许多 隐藏 的 珍贵 资源 得 以 重组 ， 随 
着 “家 谱 知 识 服 务 平台 ”"“ 盛 宣 怀 档案 知识 库 ”“ 李 
政道 数字 资源 中 心 ”“ 老 科学 家 学 术 成 长 资料 库 ” 
等 开放 平台 逐渐 增多 ， 许 多 被 忽视 的 名 人 资源 
将 逐渐 被 重视 。 但是， 反观 湘西 土家 族 苗族 自 
治 州 等 民族 地 区 名 人 文献 资源 的 开发 现状 ， 
受 限 于 人 力 、 物 力 、 财 力 与 影响 力 等 多 方 因素 ， 

其 文献 资料 开发 依旧 停留 在 局 部 整理 阶段 ， 所 
取得 的 成 果 数量 较 少 上 且 形 式 单 一 ， 需 要 借鉴 数 
字 人 文 研 究 范式 来 推动 其 成 果 产 出 与 领域 发 展 。 
基于 此 ， 本 文 参照 国内 外 相关 名 人 资源 开发 思 
路 ,结合 地 方 名 人 文献 资源 特征 ,参考 中 国 历代 
人 物 传记 资料 库 〈China Biographical Database, 

CBDB ) 和 欧洲 共享 科研 信息 协议 ( Common- 
European Research Information Format, CERIF ) 

等 知识 框架 提出 一 套 可 处 理 多 源 异 构 资 源 及 各 
粒度 知识 的 组 织 方案 ， 并 以 湘西 诗人 田 名 瑜 档 
案 及 其 作品 为 依托 ， 结 合 ROST、Protégé 等 工 
具 来 完成 田 名 瑜 及 其 未 刊 手 稿 《 苦 学 斋 日 记 》 
的 知识 组 织 ， 并 建立 “人 物 + 文 献 ” 的 知识 组 
织 与 关联 框架 ,为 民族 地 区 GLAM (Galleries, 
Libraries, Archives and Museums ) 机 构 名 人 知识 
库 构建 与 特色 人 文 服务 的 开展 提供 依据 。 


O 数字 人 文 视 域 下 人 物 文献 资源 相 
关 研 究 概述 
通过 Web of Science 和 CNKI 数据 库 可 整理 
与 归纳 国内 外 数字 人 文 领 域 以 人 物 及 其 作品 资 
源 为 研究 对 象 而 取得 的 成 果 ， 按 照 研 究 特 征 可 
划分 为 下 述 4 个 方面 : 
2.1 人 物资 源 再 整理 

谢 旭 按 照 古 代 、 当 代 和 近代 划分 及 自 建 
元 数据 方案 将 女性 人 物 在 各 时 代 教 育 、 文 化 、 
艺术 、 经 济 与 科技 各 领域 文献 资料 收纳 入 专 
题 数据 库 ， 为 女性 人 物 个 性 化 知识 服务 提供 
了 基础 已; 刘 超 林 等 探索 了 语言 模型 和 条 件 随 
机 场 条 件 下 历史 事件 研究 的 命名 实体 识别 精度 ， 
结合 220 多 卷 《 地 方志 》 资 源 结构 挖掘 了 文献 
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资料 中 的 核心 知识 ， 以 挖掘 的 各 朝代 地 方 政府 任 
职 的 官员 信息 为 基础 进行 了 算法 准确 度 评估 外; 
赵 宇 飞 以 国内 外 常用 知识 库 人 物 实 体 描 述 规范 
为 基础 ， 提 出 了 符合 中 文 名 称 信 息 规 范 的 人 物 
知识 聚合 框架 ， 为 细 化 人 物 特 征 揭示 与 标注 和 
异 源 知识 链接 与 共享 提供 基础 中， 韩国 学 者 工 
W. Kim 等 重新 整理 了 本 国 新 教 传教 士 1880 年 至 
1942 年 通讯 信件 并 实现 了 文本 人 格 与 文本 个 性 
的 揭示 四 ; 阿根廷 学 者 N. Zorrilla 等 以 早期 女性 
哲学 家 所 留 作 品 与 手稿 资源 为 切入 点 ， 通 过 文 
本 内 容 分 析 齐 析 了 早期 女性 哲学 家 被 排除 在 经 
典 之 外 的 各 类 因素 ， 并 反思 了 该 现象 出 现 的 历 
史 缘 由 与 政治 背景 。 
2.2 特 藏 资源 分 享 与 链接 

俄罗斯 学 者 Y. M. Lupanova 等 结合 罗 蒙 诺 
索 夫 现 有 “记忆 之 地 ”及 “回忆 人 物 ” 特 色 资 
源 库 建 设 现状 ， 引 入 个 人 日 记 、 手 稿 与 档案 等 
史料 资源 来 添补 人 物 完整 形象 ， 并 探 明 了 异 源 
数据 参与 人 物 形象 建设 能 够 有 效 提 升学 生 群 体 
关注 名 人 生活 与 经 历 的 兴趣 值 ， 在 拓展 教育 视 
角 的 同时 也 能 达到 “英雄 去 偶像 化 ”的 目的 e; 
美国 学 者 H. Kun 等 通过 异 构 数 据 源 、 字 符 抽取 
BOR. WEB 应 用 程序 与 智能 操作 门户 重 塑 了 “ 精 
炼 罗马 便 币 中 的 罗马 历史 人 物 ” 主 题 资 源 库 ， 
并 以 此 构建 了 一 套 较 为 完整 的 数字 文化 遗产 服 
SRB", 俄罗斯 学 者 A. Bonch-Osmolovskaya 
等 以 托 尔 斯 泰 90 卷 重要 印刷 版 文献 为 基础 ， 分 
别 对 作品 、 信 件 和 日 记 3 类 文本 进行 了 元 数据 
标记 、 字 母 标 记 与 日 记 标 记 ， 从 而 实现 了 数字 
门户 与 语义 图 索引 ， 并 参照 DBpedia 等 开放 链 
接 数据 库 搭 建 了 人 物 知识 库 ;陈志明 等 提出 
了 一 个 支持 中 国 历史 研究 的 中 国 古 籍 数字 人 文 
研究 平台 (CABDHRP ) ， 文 持 自 动 文本 注释 
( ATAS ) 和 探索 角色 社交 网 络 关系 (CSNRMT ) 。 
平台 采用 开源 机 构 知 识 库 DSpace 作为 数字 档 
案 系统 可 实现 资源 归档 和 图 像 与 全 文 扫描 ， 
通过 JavaScript 框架 可 实现 对 不 同 数据 库 (如 
CBDB, TGAZ ) 以 及 古代 文本 解释 数据 源 的 链 
接 ， 再 结合 Neo4j 等 非 关 系数 据 库 可 实现 人 物 
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2.3 人 物 社会 网 络 与 空间 分 布 
黄 俊 杰 等 提出 了 由 符号 图 模型 和 分 组 算法 
组 成 的 人 物 人 研究 框架 ， 并 结合 中 国 历 史 人 物 传 
记 资 料 库 (CBDB ) 所 形成 的 人 物 社会 网 络 架 
构 验 证 了 其 框架 的 有 效 性 与 实用 性 中， 韩国 学 
者 H. H. 开 等 围绕 朝鲜 学 者 徐 巨 正 的 亲属 关系 和 
政治 活动 开展 人 物 研究 ， 通 过 Bubbles 等 网 络 可 
视 化 软件 揭示 了 影响 历史 人 物 关系 形成 的 影响 
因素 ,包括 国家 事务 、 王 室 关系 、 外 交 局 势 、 
政治 背景 和 地 域 习俗 等 1; AEF S. Bae 应 
用 CBDB 资 料 库 、QGIS、Pajek、MARKUS 
和 DocuSky 等 数字 工具 生成 的 时 空 图 与 系谱 树 
调研 了 南宋 时 期 科举 状况 与 演变 ， 并 结合 陆 九 
W RE, BRE 人 经 历 与 交际 面 梳理 了 南 
宋 史 学 核心 人 物 的 社会 网 络 关系 号 ; 徐 永明 以 
明代 戏曲 家 、 文 学 家 汤 显 祖 为 例 ， 参 照 文献 资 
料 与 QGIS、CHGIS、ARCGIS 等 地 理 信息 系统 
可 视 化 了 其 游历 轨迹 ， 再 结合 CBDB 资料 库 与 
Gephi 软件 揭示 了 汤 显 祖 、 履 隆 和 汪 道 昆 3 人 的 
社会 关系 局 。 此 外 ， 还 有 学 者 通过 运用 CBDB 
资料 库 与 CCTS ( 中 华文 明 时 空 基 础 框架 ) 发 气 
宋代 官僚 家 族 时 空 演化 的 研究 "9; 整理 了 宋代 
学 者 师承 关系 并 完成 人 物 网 系 的 动态 揭示 "1; 
结合 家 谱 梳 理 了 明 清 进士 家 族人 际 交互 谱系 
以 《长 春 县 志 : 长 春 职 官 考释 表 》 为 基础 构建 职 
官 领域 本 体 来 揭示 清 代 仕 人 间 的 细 粒 度 知识 关 
HET, 结合 《全 唐诗 》 数 字 文 本 探究 贬 训 诗 人 
社会 关系 网 络 与 时 空 演 变 规律 中。 同时 ， 宋 雪 
脸 等 也 通过 Gephi、QGIS 、NLPIR 和 LTP 等 数 
字 人 文 工 具 开 展 了 人 名 、 地 名 、 人 情感 词 等 实体 
要 素 的 抽取 、 链 接 与 可 视 化 ， 并 完成 了 王世杰 
日 记 所 载 人 物 网 络 关 系 揭示 、 热 点 事件 空间 呈 
现 与 情感 正 负 倾向 辨析 等 研究 PM 
2.4 人 物资 源 组 织 与 关联 

刘 宁 静 等 参照 FOAF 框架 、CBDB 架构 、 
上 海 图 书馆 名 人 手稿 模型 与 CERIF 资源 提出 了 
学 术 名 人 知识 组 织 框架 ， 并 结合 纸 质 文献 、 实 
物 与 声 像 资料 实现 了 李 政 道 数字 资源 中 心 的 初 
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期 搭建 外， 李 贺 等 通过 触发 词 识别 与 典型 事件 
筛选 ， 结 合 历 史 事 件 构成 元 素 及 参考 现 有 本 体 
复 用 概念 与 属性 设计 了 一 套 基 于 民国 历史 事件 
的 本 体 模型 ， 并 依据 民国 历史 数据 开展 事件 抽 
取 、 再 组 织 和 展示 微观 社会 以 验证 此 套 模 型 的 
实效 中 I; 姚 天 泓 等 以 张学良 史料 资源 本 体 框架 
为 基础 ， 引 入 CIDOC-CRM 概念 模型 来 筛选 可 
复 用 的 基础 类 与 核心 属性 ， 通 过 对 信件 资源 进 
行 语义 标注 与 关系 揭示 实现 了 “事件 一 人 物 一 
时 空 ”知识 共 现 ， 借 此 提出 了 一 套 基 于 语义 技 
术 的 知识 组 织 方案 请; 韦 景 竹 等 以 孔子 、 老 子 、 
黑子 这 3 位 百家争鸣 的 核心 人 物 的 知识 图 谱 创 
建 为 例 ， 探 讨 了 知识 图 谱 在 数字 人 文学 科 知识 
组 织 中 的 应 用 价值 和 实现 途径 所 ， 而 英国 学 者 
A. D. Cheok 等 通过 探索 人 与 计算 机 之 间 的 自然 
对 话 ， 将 自然 语言 处 理 技术 与 机 吉 算 法 应 用 于 
孔子 礼教 知识 和 教学 建 模 ， 并 以 此 开发 了 一 种 
允许 以 虚拟 和 现实 交互 方式 体验 孔子 教导 的 知 
识 组 织 系统 。 该 系统 能 够 让 用 户 直观 认识 各 种 
非 物 质 遗 产 全 貌 ， 也 可 通过 交互 对 话 测 量 人 物 
的 哲学 意图 ， 并 生成 视角 较为 新 颖 的 内 容 与 答 
案 号 ;和 牛 力 等 依据 名 人 档案 资源 记忆 单元 设计 
了 一 套 多 粒度 知识 组 织 方 案 ， 并 通过 重 构 实 体 揭 
示 了 档案 所 记录 的 人 物 信 息 与 事例 背后 的 人 物 思 
想 、 社 会 经 历 与 家 庭 生 活 等 ， 印 证 了 领域 本 体 模 
型 在 全 局 发 现 与 知识 挖掘 等 方面 的 价值 已 ; 张 
云 中 等 以 CBDB 人 物资 料 库 架 构 和 上 海 图 书馆 
人 名 资料 、 上 古籍 资源 与 地 方志 文献 为 基础 ， 参 
照 诗词 网 站 与 人 物 年 谱 完善 了 历史 文化 名 人 游 
学 足迹 知识 组 织 框架 , 再 集合 关系 数据 库 系统 、 
Navicat 管理 系统 、D2R 转换 工具 、LODLIVE 
可 视 化 软件 分 别 进行 数据 存储 、 转 化 发 布 、 浏 
览 查询 与 图 谱 构建 实现 历史 名 人 游学 足迹 的 知 
RRR, 

可 以 看 出 ， 国 内 外 针对 名 人 文献 资源 相关 
研究 较为 集中 于 上 述 4 个 方面 ， 而 开展 名 人 文 
献 资源 知识 组 织 方案 研究 的 成 果 较 少 ， 围 绕 地 
方 名 人 与 其 作品 资源 的 知识 组 织 研究 还 未 出 现 ， 
更 缺乏 相应 的 知识 组 织 方案 与 可 复 用 的 领域 本 
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<= 
体 模 型 。 基 于 此 , 本 文通 过 地 方 资源 开发 现状 、 
名 人 文献 资源 特征 与 人 物 知 识 框架 等 设计 了 一 
套 能 揭示 地 方 名 人 多 源 异 构 资 源 各 粒度 知识 的 
组 织 方 案 ， 以 期 在 实现 文献 知识 “ 显 隐 ” 印 证 
的 同时 为 地 方 GLAM 机 构 开 展 人 物 知 识 管理 与 
服务 提供 借鉴 。 


3 地 方 名 人 文献 资源 知识 组 织 与 关 
联 方案 设计 与 分 析 

自然 语言 处 理 和 本 体 模型 构建 能 将 非 结构 
化 文本 加 工 为 结构 化 知识 ， 从 而 实现 知识 关联 和 
资源 共享 。 由 于 地 方 名 人 文献 资源 所 涉及 的 手写 
与 印刷 资源 需要 人 工 校勘 ， 所 以 ， 地 方 名 人 文献 
资源 组 织 方案 应 是 一 种 人 机 互助 形式 ， 需 要 括 下 


1 地 方 名 人 文献 资源 知识 组 织 与 关联 方案 


3.1 异 构 文 献 资源 内 容 整 理 

依据 相近 体裁 出 版 物 凡 例 设置 的 规则 对 名 
人 档案 与 手稿 作品 等 资料 进行 整理 。 在 文本 数 
字 化 前 ， 由 于 地 方 名 人 文献 中 存在 大 量 的 手稿 
且 部 分 已 出 现 破 损 ， 在 资源 整理 前 需 对 破损 手 
稿 进行 原生 性 保护 以 确保 后 续 文本 扫描 工作 的 
顺利 进行 。 在 文本 数字 化 过 程 中 , 由 于 手稿 字体 、 
图 画 和 表格 等 部 分 存在 明显 的 个 人 特征 ， 需 通 
过 “OCR+ 人 校 ” 模 式 辅助 辨别 文本 主题 和 修正 
文档 内 容 ， 以 此 形成 较 规范 、 可 识别 和 可 增添 
的 电子 文档 。 在 文本 数字 化 后 ， 按 照 “NLP+ 人 
校 ” 模 式 运 用 LTP 平台 、NLPIR 5 ROST 等 自 
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述 几 项 功能 : 可 以 参照 凡 例 设置 (字体 、 排 列 、 
现代 标点 等 ) 完成 语 料 主题 甄别 和 内 容 修正 ; 
@) 可 以 运用 自然 语言 技术 实现 名 人 文献 知识 (人 
物 、 地 点 、 事 件 、 行 为 、 情 感 等 ) 的 实体 识别 
和 关系 抽取 ; @ 可 以 通过 自 建 本 体 模 型 ( 人 物 
本 体 、 文 献 本 体 等 ) 规范 领域 基础 类 和 属性 间 关 
AR; 由 可 以 结合 人 文 图 谱 软件 ( Gephi、QGIS、 
Cytoscape 等 ) 揭示 不 同 粒度 知识 网 络 ; 全 可 以 
利用 图 数据 库 ( Neo4j 等 ) 存储 和 查询 互联 知识 ; 
人 @@ 可 以 应 用 图 谱 呈 现 的 知识 粒度 值 辨 别 组 织 结 

优 劣 并 进行 结构 调整 ， 以 此 为 地 方 GLAM 机 构 
开展 人 物 导 航 、 语 义 检索 、 关 联 推理 和 人 文 发 现 
等 知识 服务 黄 定 基础 。 具 体 设 计 思路 可 见 图 1, 
下 面 将 对 关键 步骤 进行 概况 分 析 。 


实体 识别 


清洗 【 时间] | 
CD 


PEAGI 
— 


然 语 言 处 理工 具 辅 助 研究 者 完成 对 文献 实体 识 
别 与 关系 抽取 的 任务 ,根据 文本 内 容 验 证 抽取 
要 素 的 准确 度 、 匹 配 度 及 完整 度 ， 根 据 背 景 
料 对 文本 内 容 进行 修正 ， 为 后 续 的 知识 整理 与 
本 体 赋值 做 好 准备 。 
3.2 地 方 名 人 资源 本 体 构 建 

依据 整理 后 资源 结构 化 程度 重点 盘 选 
与 加 工 半 结 构 化 和 非 机 构 化 文本 资源 ， 以 
CNMARC, DC 等 元 数据 标准 体系 为 基础 ， 运 
用 自然 语言 处 理 技术 ( 实体 识别 、 关 系 抽取 ) ， 
从 分 散 无 序 的 名 人 文献 资源 中 提取 主题 、 人 名 、 
地 名 、 事 件 名 、 和 情绪 词 与 风格 等 不 同 粒度 知识 。 
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结合 抽取 知识 的 相关 性 、 通 用 性 与 识别 度 以 及 
中 国 历代 人 物 传记 资料 库 ( CBDB ) 等 知识 库 框 
架 ， 共 同 绘制 人 物 术语 词 表 和 文献 术语 词 表 。 
根据 领域 核心 概念 划分 基础 类 等 级 、 定 义 与 属 
性 并 自 建 本 体 模型 ,再 通过 验证 交流 补充 遗漏 
类 与 拓展 属性 ， 从 而 搭建 适合 地 方 名 人 资源 组 
织 与 开发 的 本 体 模型 。 
3.3 实体 与 实体 关系 融合 

在 完成 信息 抽取 后 ， 不 能 忽略 地 方 名 人 非 
正式 出 版 文献 〈 日记、 演讲 稿 、 采 访 稿 等 ) 中 
遗留 的 大 量 非 规范 性 表述 内 容 ( 绰号 、 人 简称 、 
方言 等 ) ， 此 类 表述 所 产生 的 元 余 或 错误 信息 
既 影 响 人 物 关 系 与 偏向 行为 的 准确 界定 ， 也 会 
降低 实例 本 体 清 晰 度 与 人 文 图 谱 构建 质量 。 基 
于 此 ， 需 采用 融合 手段 将 多 源 知 识 进 行 消解 与 
消 上 发。 对 同 义 异 称 的 实体 与 关系 可 选用 相似 函 
数 或 者 推理 模型 等 手段 消解 共 指 冲突 ， 对 同 称 
异 义 的 实体 与 关系 可 结合 特 指 列表 和 链接 系统 
等 方式 消除 指 代 歧义 ， 将 多 源 异 构 知 识 合并 以 
解决 知识 匹配 与 关联 困 局 ， 为 地 方 名 人 动态 资 


源 管理 、“ 显 隐 ” 知 识 发 现 以 及 共享 交互 平台 
设计 提供 依据 。 


3.4 地 方 名 人 资源 知识 应 用 

合并 后 的 地 方 名 人 文献 资源 以 知识 单元 的 
形式 按 层 存 储 于 知识 库 中 ， 用 户 可 依据 需求 或 
目的 开展 人 物 导航 、 语 义 检索 与 人 文 知识 发 现 
等 工作 。 如 通过 资源 描述 框架 (RDF ) 链接 地 
方 人 物 及 相关 文献 知识 库 实现 人 物 导 航 ， 通 过 
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文本 资源 的 补充 ， 所 构建 本 体 的 基础 类 与 属性 
将 逐渐 被 补充 与 调整 ， 以 文献 资源 特征 与 人 物 
知识 框架 为 基础 ， 结 合 七 步 法 进行 本 体 模型 构 
建 则 更 容易 满足 名 人 资源 全 周期 开发 与 完善 等 
需求 。 
4.1 地 方 名 人 文献 资源 特征 

地 方 名 人 文献 资源 是 GLAM 等 保藏 机 构 特 
色 资 源 中 相对 特殊 的 门类 , 由 手稿 日 记 、 诗 歌 、 
讲稿 和 专著 等 直接 关联 文献 以 及 人 物 传记 、 小 
说 、 家 谱 和 地 方志 等 间接 关联 文献 组 成 。 想 运 
用 本 体 模 型 将 不 同体 裁 、 载 体 和 主题 的 文献 以 
及 人 物资 料 组 织 在 一 起 ， 既 需要 辨析 名 人 文献 
资源 特征 ， 也 需要 参考 人 物 知识 框架 。 地 方 名 
人 资源 特征 可 概括 如 下 : 

(1) 资源 种 类 丰富 。 地 方 名 人 资源 是 记录 
地 域 演变 、 历 史 变 迁 、 民 众 文 化 与 宗教 信仰 的 重 
要 集合 ， 名 人 日 记 、 诗 歌 、 讲 稿 等 资源 也 是 揭示 
民族 变迁 、 语 言 特色 、 地 方 风 俗 与 神话 的 重要 依 
th, MARR. WAMA, GAAS 
资源 也 是 开展 地 方 文化 记忆 工程 的 重要 素材 。 所 
以 ,在 整理 和 划分 名 人 资源 种 类 过 程 中 ， 除 了 处 
理 以 纸 质 载体 为 主 的 文本 文献 外 ， 还 需要 关注 留 
声 录 像 ( 照片、 磁带 和 视频 等 ) 和 实物 (手工 品 、 
石刻 和 雕版 等 ) 等 其 他 形式 资料 。 

(2) 文本 结构 复杂 。 由 于 名 人 文献 资源 大 
多 以 手稿 形式 保藏 , 不 同人 物 作品 在 文化 背景 、 
行文 规范 、 语 言 偏 好 、 文 段 构思 与 字体 字形 等 
方面 存在 较 大 差异 ， 受 限于 机 器 整理 的 文本 质 


SPARQL Cypher ( Neo4j ) 等 查询 语言 完成 日 
标 知识 网 络 检 索 ， 借 助 逻 辑 运算 与 推理 机 制 发 
掘 地方 名 人 资源 实例 间 关 联 ， 并 结合 人 文 图 谱 
软件 从 篇 章 内 容 、 文 段 情绪 、 时 空 网 络 和 交互 
行为 等 方面 实现 特色 资源 知识 发 现 等 。 


O 地 方 名 人 文献 资源 解析 与 本 体 模 
型 构建 

地 方 名 人 文献 资源 开发 因 受 限 于 人 力 与 物 
力 等 因素 ， 多 以 未 整理 的 手稿 形式 及 待 处 理 的 
非 结构 化 文本 为 主 。 而 随 着 资源 开发 的 演进 与 


量 ， 运 用 算法 、 机 器 学 习 等 手段 对 名 人 文献 资 
源 核心 知识 进行 识别 与 抽取 的 准确 度 并 不 理想 ， 
且 容 易 出 现 词汇 元 余 与 词义 不 搭 等 现象 。 所 以 ， 
需要 按照 设置 凡 例 将 待 处 理 文本 所 涉 角 色 、 句 
法 与 语序 进行 人 工 处 理 , 确保 不 同时 期 的 文言 、 
日 话 ( 口语、 书面 语 ) 能 够 转译 为 统一 形式 文 
本 来 提高 语言 处 理 质 量 。 

(3 ) 资源 视角 广阔 。 直 接 关联 文献 ( 如 名 
人 目 扎 作品 与 亲笔 记录 ) 可 为 文献 资源 组 织 提 
供 实例 资料 ， 而 间接 关联 文献 4《 如 名 人 生平 游 
历 与 仕途 变迁 ) 则 为 人 物 知识 梳理 提供 佐证 材 
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料 。 此 外 ， 还 需要 引入 参考 资料 和 引证 文献 来 
提高 人 物资 源 组 织 方案 的 适用 性 ， 即 通过 资源 
中 提 及 的 人 物 、 作 品 等 内 容 来 扩充 文本 体 量 ， 
通过 可 参考 资源 中 的 诗句 、 事 件 等 内 容 来 提升 
文本 广度 。 

(4) 主题 关系 隐蔽 。 由 于 名 人 资源 内 容 繁 
杂 且 形式 多 样 ， 仪 依靠 自然 语言 处 理 技术 难以 
达到 高 准 度 异 文 同 题 的 关系 抽取 和 发 气 。 所 以 ， 
针对 较为 隐蔽 的 关联 主题 应 以 “人 物 ” 为 基点 ， 
深入 调研 名 人 背景 与 解读 作品 内 容 ， 并 结合 其 
仕途 经 历 、 历 史 地 位 、 关 键 事件 和 个 人 意趣 等 
情况 进行 人 工 判断 和 筛选 ， 以 保障 异 文 同 题 关 
系 的 合理 与 准确 。 

(5) 资源 跨 域 明显 。GLAM 虽 同 属于 资源 
保藏 机 构 ， 但 是 对 资源 研究 的 侧重 点 与 方向 均 
有 不 同 ， 涉 及 图 书馆 学、 档案 学 、 历 史学 、 考 
古 学 和 计算 机 学 等 多 个 学 科 领 域 。 因 此 ， 在 搭 
建 名 人 资源 组 织 方 案 过 程 中 应 采纳 多 方 意见 ， 
组 建 专业 人 才 小 组 并 运用 分 工 合作 的 方式 来 细 
化 各 领域 资源 的 知识 粒度 和 关联 关系 。 

4.2 人 物资 源 描述 框架 

当前 ， 地 方 名 人 资源 研究 领域 还 未 出 现 可 
直接 复 用 的 人 物 知识 框架 与 文献 知识 框架 ， 而 
了 解 通用 或 常用 的 特色 框架 能 够 为 湘西 地 方 人 
物资 源 知识 框架 搭建 提供 线索 。 参 考 人 物资 源 
描述 框架 包括 : 

(1) CBDB 资料 库 。 中 国 历代 人 物 传记 资 
料 库 以 历史 人 物 传 记 为 核心 资源 ， 信 息 描述 可 
划分 为 人 仕途 径 、 社 会 身份 、 亲 属 关 联 、 地 区 
迁移 等 方面 ， 传 记 信息 结合 时 代 背 景 及 人 物 社 
会 关系 构建 了 一 套 较 为 完整 的 人 物 知 识 组 织 方 
案 ， 可 为 地 方 人 物 及 相关 历史 人 物 的 知识 分 类 
和 属性 筛选 提供 支撑 。 

(2) FOAF 模型 。 作 为 线 上 社区 及 社会 网 
络 用 户 信息 组 织 与 描述 的 本 体 模型 ， 其 术语 词 
表 中 常用 的 13 个 基础 类 和 55 个 属性 可 对 用 户 
个 体 、 社 会 群体 、 所 在 组 织 、 个 体 关系 和 相关 
事件 等 信息 进行 更 全 面 描述 与 更 深入 关联 ， 且 
可 通过 RDFSchema 与 OWL 等 通用 模型 进行 类 
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属性 的 补充 与 调整 。 

(3 ) CERIF 管理 标准 。 学 术科 研 信息 管理 
系统 中 涉及 的 基础 实体 、 成 果实 体 、 设 施 实体 
和 附注 实体 能 够 直观 地 描述 人 物 参与 科研 的 全 
周期 状况 以 及 揭示 其 在 教育 、 工 作 、 研 究 和 荣 
誉 等 方面 信息 。 

(4) 上 海 图 书馆 开放 数据 平台 。 平 台 提供 
了 古籍 (37 个 类 ，160 个 属性 ) 、 家 谱 (38 个 
类 ，109 个 属性 ) 、 手 稿 及 档案 (44 个 类 ，195 
个 属性 ) 、 历 代 人 物 传记 (9 个 类 ，35 个 属性 ) 
和 人 名 规范 库 (22 个 类 , 68 个 属性 ) 等 本 体 词 表 ， 
可 以 为 地 方 名 人 资源 中 涉及 的 家 谱 、 手 稿 、 档 
案 和 地 方志 等 文献 资源 的 知识 元 抽取 提供 指导 。 
4.4 地 方 名 人 文献 资源 本 体 模型 初 建 

地 方 名 人 资源 知识 组 织 的 核心 步骤 在 于 构 
建 本 体 模型 。 而 本 体 模 型 的 构建 工作 也 应 围绕 
名 人 文献 整合 与 资源 结构 规范 等 目的 和 遵循 组 
织 合理 、 关 联 有 序 、 标 准 适 应 、 开 放 共 享 、 内 
容 详实 且 富 有 特色 等 原则 来 开展 。 基 于 此 ， 本 
文 参照 常用 本 体 词 表 与 知识 框架 ,结合 湘西 地 
方 人 物 与 资源 特征 并 运用 七 步 法 来 自 建 地 方 名 
人 文献 资源 本 体 CLO (Celebrity & Literature 
Ontology ) ，CLO 由 人 物 知识 框架 和 文献 知识 
框架 两 部 分 组 成 。 关 键 步 又 概括 如 下 : 

4.4.1 知识 元 抽取 

对 异 构 资源 的 内 容 进行 整理 后 需 参 考 多 种 
本 体 词 表 ， 依据 体 系 标准 和 ROST 软件 从 电子 
文本 中 抽取 可 概括 与 规范 文献 内 容 的 知识 元 ， 
为 后 续 非 结构 化 文本 处 理 与 知识 本 体 初 建 提供 
支持 。 以 《凤凰 县 志 》《 湘 西 文史 资料 》 和 《 凤 
Jl: 那些 人 ， 那 些 事 》 等 馆藏 地 方 文献 中 记载 
的 湘西 人 物 为 基础 抽取 名 人 知识 本 体 构建 所 需 
WAM. 45., THER SEC. U (F 
“a5 Hid) A (eS meh) SO RY 
名 人 文献 为 基础 抽取 文献 知识 本 体 构 建 所 需 的 
目录 、 事 件 、 风 格 、 情 感 和 角色 等 内 容 元 素 。 
在 具体 人 物 及 文献 本 体 构 建 时 ， 需 按照 人 物资 
料 完整 度 与 辨析 度 、 文 献 体裁 及 内 容 特征 等 对 
核心 概念 与 描述 属性 进行 反复 调整 。 
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表 1 文献 知识 元 抽取 表 (示例 ) 


来 源 文献 部 分 文 段 抽取 对 象 

《凤凰 县 志 》 田 名 瑜 ， 字 个 石 ， 男 , 诗人 ， 作 家 ，1890 年 正月 出 生 于 凤 ” 田 名 瑜 ( 姓 名 ) .个 石 ( 字 )、 男 (性 

( 1988 ) 凰 县 城 一 油漆 工人 家 庭 …… 投 拜 其 叔父 / 田 星 六 门下 ， 先 在 “ 别 ) 诗人 (身份 )、 作 家 (身份 )、 
凤 乾 永 晃 四 厅 中 学 党 毕业，1910 年 人 湖南 高 等 学 堂 就 读 …… 1890 年 (生年 )、 凤 凰 县 (生地 ) 、 
1981 年 3 月 病故 于 甘肃 省 靖 远 县 他 的 大 儿子 住所 ,享年 91 ， 田 星 六 (亲戚 )、 湖南 高 等 学 堂 ( 院 
岁 …… 校 ) 1981 年 (ZE), HWE 

靖 远 县 (EHe ) 
《湘西 文史 。 田 名 瑜 生 平 的 著作 其 丰 ,， 据 了 解 有 : CURSE) (ERE 《 思 访 诗集 》( 作品 ) 《诗经 说 略 》 


资料 》( 1990 ) 


CRUEL: 那 
些 人 ， 那 些 


文集 》《 苦 学 斋 诗 稿 》《 早 红 词 》《 


诗经 说 略 》、《 杜 诗 选 


抄 注解 》《 湖 南 苗 族 记 》《 辛 辫 革 命 湘西 起 义 事略 》《 苗 学 


裔 日 记 》 等 


1926 年 至 1933 年 间 ， 田 个 石 先 后 任 大 良 
县 县 长 。1934 年 至 1937 年 ， AER rete A KA AB 


县 、 污 陵 县 、 黑 阳 


Em), (Eira) 作品 ) 、 
Cortina Aid) (作品 ) 


1926 年 (时 间 ) 、1933 年 (时 间 ) 、 
KEH (WA). KRAH (地 点 ) 、 


事 》(2017) 1937 年 至 1942 年 ， 任 国民 党 第 十 集团 军 总 司令 部 秘书 兼 
128 师 驻 衢州 办 事 处 主任 。1942 年 到 1948 年 先后 任 湖南 永 
顺 专 署 主任 秘书 ,湖北 省 政府 秘书 .1948 年 任 凤 凰 县 县 长 ……: 
(eis A ”一 九 六 二 年 /六 月 二 十 二 日 ， 晴 ， 印 度 / 尼 赫 鲁 /二 十 二 日 


记 》(1962) 


(ERF 
fri)» (1927) 


在 议会 说 ， 承 认 / 印度 在 中 印 边界 西 
哨所 新 的 巡 沙 哨所 …… 九 月 二 十 三 日 


三 十 首 ， 内 有 笔 底 银河 落 九 天 ……' 一 说 是 咏 李 白 ， 一 说 是 咏 


杜甫 


《七 月 三 日 有 怀 》: ATE) AE, 黄 


段 设置 一 些 危及 / 中 国 
， 睛 ， 元 好 问 / 论 诗 


IKEA). ZERRE HH , 


HAE. RARI, RRC. WWIE, DERE 


复 何 如 ? 


4.4.2 基础 类 词 表 构建 


对 抽取 的 知识 元 进行 比较 、 整 理 与 辨析 处理， 
从 中 筛选 具备 通用 性 、 识 别 性 和 增添 性 的 知识 元 
并 将 其 纳入 术语 词 表 ， 对 界定 不 完整 或 者 不 清晰 
分 别 定义 人 
物 知识 本 体 的 基础 概况 〈 姓名、 籍贯 、 民 族 等 ) 、 
教育 ( 就 读 院 校 专业 、 和 学 时 间 等 ) 成果 (文献 、 


的 基础 类 (C 


lass ) 进行 补充 和 调整 。 


政府 ( 机构) 、 驻 衢州 办 事 处 (机 
构 )、 县 长 (职位 )、 秘 书 (职位 ) 


一 九 六 二 年 (有 时间) 、 六 月 二 十 二 
日 (记录 时 间 ) 、 印 度 (涉及 国 ) 、 
中 国 ( 涉及 国 ) 、 中 印 边 界 西 段 (发 
生地 ) 、 和 危及 (人 情感 ) 、 银 河 落 
九天 (情感 ) 、 元 好 问 (人 物 
李白 (人物 ) 

《七 月 三 日 有 怀 兴 作品) 公 衔 ( 机 
构 ) 、 未 惯 ( 情感) 、 云 扶 群 山 ( 情 
感 ) 、 徐 导 ( 人 物 ) 、 虞 卿 (人 物 ) 


日 记 、 诗 歌 ) 和 工作 〈 机 构 、 职 位 等 ) 以 及 文献 


表 2 基础 类 术语 词汇 总 表 


知识 本 体 的 目录 (篇 数 、 页 数 、 字 体 等 ) 、 事 件 
(发 生地 、 涉 及 对 象 等 ) 、 角 色 (创作 者 、 保 藏 
者 、 开 发 者 等 ) 、 
字体 、 对 文献 、 对 人 物 等 ) 和 情感 ( 事件、 角色、 
文献 等 ) 等 描述 类 ， 补 充 时 间 (开始 时 间 、 绪 

时 间 等 ) 和 地 点 (涉及 地 区 、 地 形 等 ) 等 通用 类 。 


流派 ( 领域 、 起 源 等 ) 、 风 格 ( 对 


序号 基础 类 描述 参考 标准 序号 基础 类 描述 参考 标准 
1 人 物 Person foaf:Person 10 工作 Employee akt:Employee 
2 ih} fa] Time crm:Time 11 AK Achievement nrv:Achievement 
3 地 点 Place shl:Place 12 机 构 Institution aiiso:Institution 
4 事件 Riji Eve shl:Event 13 目录 List drama:List 
5 职位 Position shl:Position 14 风格 Style oa:Style 
6 情感 Riji_Sen kdo:Sentiment 15 9 色 Role dcat:Role 
7 流派 Genre mo:Genre 16 著作 Literatures 自 定 义 
8 概况 BasicINFO DA/T—2015 17 诗歌 Shige 自 定义 
9 教育 Education modsci:Education 18 日 记 Riji 自 定义 
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<= 
4.4.3 属性 词 表 构建 
运用 混合 法 ( 自 项 向 下 法 和 自 底 向 上 法 ) 
以 明确 地 方 名 人 资源 基础 类 层次 与 类 内 部 属 
性 。 针 对 基础 类 等 级 划分 ， 可 依据 层次 分 布 和 
词 表 概 念 来 构建 领域 上 下 位 类 框架 ， 青 通过 实 
例 所 跨 领 域 和 所 含 知识 向 上 泛 化 通用 类 和 向 下 
细 化 描述 类 ， 从 而 保障 湘西 名 人 文献 资源 本 体 
模型 整体 结构 的 适用 性 及 揭示 要 素 的 全 面 性 。 


ChinaXiv 合 作 期 刊 


针对 属性 归 类 ， 需 根据 其 描述 类 的 事实 进行 判 
断 ， 个 体 关联 到 个 体 为 对 象 属性 Cop, object 
properties) ， 对 象 属 性 具有 说 明 取 值 类 型 的 属 
性 且 能 够 揭示 类 与 类 间或 类 与 实例 间 的 共同 
特征 ; 而 个 体 关联 数据 为 数据 属性 (dp, data 
properties ) ， 数 据 属性 可 根据 其 定 类 与 定 序 以 
及 离散 与 连续 等 特性 来 优化 实例 知识 组 织 方案 
与 丰富 知识 揭示 视角 。 


F 


表 3 属性 术语 词 表 构 建 


序号 属性 描述 参考 标准 序号 属性 描述 参考 标准 

1 字 courtesyname shl:courtesyName 17 事件 名 event_name dicom:eventName 

2 ， 谢 号 posthumoustitle shl:posthumousTitle 18 发 生地 event_place bbc:eventPlace 

3 性 别 sex pico:sex 19 领域 domain rdfs:domain 

4 生年 date_of birth shl:birthDay 20 起 源 source shl:source 

5 ”生地 place_of birth shl:birthPlace 21 开始 时 间 begin_time shl:begin 

6 84Fdate of death shl:deathday 22 结束 时 间 end_time shl:end 

7 党 派 Party itsmo:hasParty 23 ”涉及 地 区 mentioned site org:siteOf 

8 专长 speciality shl:speciality 24 创作 者 creator dct:creator 

9 语言 language dct:language 25 保藏 者 collector gndo:collector 

10 民族 ethnicgroup dicom:EthnicGroup 26 开发 者 developer sdm:developer 

11 sll Fida nt dicom:ScheduledAdmissionDate | 27 就 读 院 校 adschool 自 定义 
admission 

12 毕业 时 间 date Ot dicom:ScheduledgraduationDate | 28 有 作品 has_literature 自 定义 
graduation 

13 专业 major km4c:hasMajor 29 ”对 字体 Style_of typeface 自 定义 

14 篇 数 opusnumber bfOpusNumber 30 “对 文献 Style of literature 自 定 义 

15 种 类 type rdf:type 31 对 人 物 Style_of role 自 定义 

16 字体 typeface frbrer:hastypeface 32 地 形 terrain 自 定义 


4.5 本 体 模型 修正 
4.5.1 修正 规则 及 概况 

本 体 修正 是 以 初 建 模型 为 基础 ， 参 照 核心 
概念 外 延 与 揭示 实例 内 容 进行 本 体 模型 基础 类 
调整 与 属性 增 减 来 提升 模型 匹配 度 的 重要 步 又 。 
在 本 体 修 正 过 程 中 ， 核 心 概念 外 延 界定 、 实 例 
知识 粒度 细 化 、 本 体 模型 与 领域 实例 匹配 度 均 
需 根据 地 方 文献 领域 专家 咨询 与 反馈 结果 进行 
判定 。 以 湘西 地 方 名 人 与 日 记 体裁 作品 整理 现 


状 为 基础 ， 从 相关 性 、 重 要 性 、 调 整 性 和 操作 
性 4 个 维度 设计 函 询 问卷 ， 遵 循 个 人 经 验 和 独 
立 认 知 等 判别 依据 (通过 =1; 不 通过 =0) ,让 
专家 分 别 对 各 基础 类 及 属性 的 4 个 维度 进行 评 
价 并 给 予 建议 。 此 次 本 体 修正 函 询 专家 共 15 位 ， 
收回 问卷 13 份 (积极 系数 为 86.7% ) 。 参 与 专 
家 分 别 来 自 图 书馆 、 高 校 与 软件 公司 。 其 中 ， 

男性 7 位 (53.85%) ， 女 性 6 名 (46.15% ) ; 

本 科 及 以 上 学 历 11 位 (84.62% ) ， 其 余 学 历 2 
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WE (15.38%) ; 高 级 职称 5 位 (38.46%), P 
级 职称 8 位 (61.54%) o 平均 从 事 信息 组 织 、 
知识 管理 与 数据 库 构 建 等 工作 年 限 为 4 年 及 以 
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上 。 将 专家 评价 、 所 提问 题 及 建议 进行 汇总 获 
得 表 4， 参 照 建议 对 CLO 进行 修正 后 获得 全 票 
通过 。 


表 4 专家 评价 、 问 题 与 建议 概况 


维度 一 一 一 一 一 问题 描述 


专家 建议 


相关 性 12 1 ”相关 性 : 初 建 模型 CLO 中 描述 名 人 知识 的 基础 建议 设置 大 类 来 归纳 其 他 相关 类 ， 并 
类 阐述 还 不 够 明确 ， 应 进一步 加 强 层次 划分 。 考虑 细 分 的 可 能 ' 

重要 性 ”12 1 ”重要 性 : 名 人 文献 种 类 繁多 ， 基 础 类 及 属性 设 建议 聚焦 特定 种 类 的 文献 为 实例 开 

置 过 于 宽泛 ， 缺 乏 重点 ， 应 思考 每 个 类 及 属性 研究 ， 并 根据 文献 特征 调整 类 与 属性 


是 否 都 是 此 阶段 研究 最 重要 的 


调整 性 11 2 ”调整 性 应 结合 人 物 与 文献 背景 与 时 代 调 整 组 建议 剔除 文本 空白 类 及 属性 ， 应 适当 


揭示 效率 


织 方案 的 内 容 ; 应 结合 文本 内 容 提 高 CLO 的 。 结合 相关 资料 来 探究 细 化 知识 粒度 的 


可 能 性 


操作 性 10 3 BEWE: 资源 组 织 与 关联 方案 未 用 直观 操作 图 建议 阐明 操作 步骤 与 处 理工 具 ， 增 加 


表示 ; CLO 构 建 所 参照 标准 不 够 明确 ; 未 告知 参考 标准 与 图 示 ， 应 用 组 织 实例 来 检 


操作 工具 


4.5.1 基础 类 修正 

对 人 物 描 述 明确 概况 、 教 育 、 成 果 与 工作 
4 项 大 类 ， 以 拓宽 湘西 地 方 人 物 知识 组 织 与 知识 
揭示 视角 。 由 于 人 物 现 有 保藏 作品 多 为 日 记 、 
诗歌 与 批注 等 纸 质 文献 ， 即 人 物 成 果 部 分 任务 
为 归纳 现 有 文献 成 果 并 进行 知识 组 织 与 内 容 揭 
示 。 以 日 记 文献 为 例 ， 将 日 记 从 文献 类 中 提出 
并 分 别 设立 日 记 类 与 其 他 文献 类 ， 对 日 记 类 描 
述 纳 入 目录 、 事 件 、 情 感 、 风 格 与 角色 5 项 基 
础 类 以 全 面 、 细 化 、 深 入 地 揭示 文献 知识 结构 ; 
按照 日 记 格 式 在 目录 中 添加 卷 数 与 记录 时 间 ， 
由 于 日 记 中 存在 较 多 书信 交流 形式 ， 需 在 角色 
类 中 增加 交流 角色 以 标注 书信 对 象 。 此 外 ， 将 
工作 经 历 中 与 机 构 调 动 相关 内 容 单 独 归 纳 为 机 
构 (机 构 名 、 调 动 地 ) 和 职位 (职位 名 ) 两 项 
基础 类 ， 以 细 化 对 人 物 工作 调动 与 变化 内 容 的 
组 织 与 描述 。 在 通用 类 中 ,根据 文 献 内容 扩 宽 
地 点 相关 类 描述 种 类 , 增设 国家 ( 共 197 个 国家 ) 
子 类 以 备 国际 事件 涉及 对 象 的 标注 与 描述 。 
4.5.2 描述 属性 调整 

在 第 选 人 物 及 文献 本 体 基础 类 后 需要 对 相 
关 属 性 进行 调整 。 由 于 数据 属性 输入 数值 主要 


验 此 套 体系 的 可 用 性 


依赖 于 文本 内 容 ， 所 以 类 间 调 动 主 要 影响 的 是 
类 的 对 象 属性 。 在 人 物 描述 方面 ， 依 据 历 史 背 
景 与 个 人 资料 空白 内 容 移 除 谱 号 、 党 派 、 专 长 、 
语言 、 专 业 、 地 形 与 页 数 等 数据 属性 ， 根 据 拓 
展 资料 增加 身份 、 亲 属 与 老师 等 对 象 属性 。 在 
文献 描述 方面 ， 根 据 日 记 体裁 特点 移 除 作品 所 
属 流派 类 中 关于 领域 与 起 源 等 数据 属性 ， 增 加 
事件 类 中 发 生地 坐标 、 涉 及 国家 与 涉及 地 点 等 
对 象 属性 ， 增 加 情感 类 中 事件 情感 属性 ， 在 角 
色 类 中 和 暂时 移 除 保藏 者 与 开发 者 等 外 部 属性 ， 
增加 交往 人 物 、 政 治 人 物 与 历史 人 物 等 对 象 属 
性 。 此 外 , 对 应 得 选 与 调整 的 新 类 增加 记录 时 间 、 
卷 数 等 数据 属性 。 

综 上 所 述 ， 调 整 后 地 方 名 人 知识 框架 包括 
基础 类 10 个 (6 大 类 , 4 TŽ ) 和 属性 26 个 (12 
对 象 属性 ，14 数据 属性 ) ， 调 整 后 文献 资源 知 
识 框 架 包括 基础 类 6 个 (1 大 类 ，5 FA) 和 属 
性 21 个 (15 对 象 属性 ，6 数据 属性 ) 。 在 表 5 
中 省 略 基础 类 前 级 CLO， 其 中 上 标 C 代表 基础 
类 ， 上 标 op 代表 对 象 属性 ， 上 标 dp 代表 数据 
属性 , 序号 简 示 实例 关系 ，*** 代表 概况 、 教 育 、 
工作 与 成 果 任 意 类 。 
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表 5 地方 名 人 知识 本 体 及 文献 资源 知识 本 体 基础 类 、 属 性 描述 表 (以 日 记 为 例 ) 


基础 类 描述 
人 物 Person° 
概况 Person Bas5 


教育 Person Educ 


工作 Person Emp5 


成 果 Person Ach5 
机 构 Institutionc 


职位 Positionc 
时 间 Timec 


地 点 Placec 


身份 Identity5 
日 记 Rijic 
目录 Riji Lisc 


Ilin] 


F{FRiji_Eve® 


情感 Riji_Senc 


属性 描述 
关于 is_aboutep 
字 Person_ courtesynamedp 
性 别 Person sex 
生年 date_of birth’? 
生地 place_of birth’? 
*%*4F date of death 
民族 Person_ethnicgroup% 
身份 Person identity” 
亲属 Person kinsm 
就 读 院 校 Person adschooldp 
入 学 时 间 date of admission” 
毕业 时 间 date_ of graduation” 
老师 Person instructore 
工作 于 work in 
入 职 时 间 date_of hire’? 
有 作品 has literaturep 
任职 Ins_positiondp 
调动 IJns_transfere 
职位 别称 Pos_anothernamep 
记录 时 间 record_ time’? 
开始 时 间 begin_timeep 
ZARA Eend time? 
时 间 timedp 
涉及 地 区 mentioned_siteop 
涉及 国家 mentioned_country% 
从 标 has_coordinate 和 P 
认证 Identified asdp 
相关 is_relate” 
卷 数 Riji volume” 
记录 时 间 date_of opus” 
种 类 Riji_type? 
字体 Riji_typeface 
篇 数 Riji_opusnumber* 
4% event_name” 
发 生地 event_placee 
坐标 event coordinateop 
涉及 角色 has role” 
涉及 国家 has_country” 
事件 sentiment of evente 
角色 sentiment of rolee 


文献 sentiment of literature? 


Ilin] 


域 
Person“ 
Person Bas° 
Person Bas° 
Person Bas° 
Person Bas° 
Person Bas° 
Person Bas° 
Person Bas° 
Person Bas° 
Person Edu° 
Person Edu° 
Person Edu5 
Person Edu° 
Person Emp° 
Person Emp° 
Person Ach° 
Institution® 
Institution® 
Position“ 
Time® 
Time 
Time 
Time® 
Site® 
Country° 
Place® 
Identity] 
Rijjic 
Riji Lis5 
Riji Lis5 
Riji Lis5 
Riji Lis5 
Riji Lis5 
Riji Eve° 
Riji Eve° 
Riji Eve° 
Riji Eve° 
Riji Eve° 
Riji_ Senc 
Riji Sen° 
Riji Senc 


值 域 
Person ***C 
数据 
数据 
Time 
Place© 
Time 
数据 
Identity® 
Person“ 
数据 
Time 
Time 
Person“ 
Institution© 


Time 


Riji©/Literatures© 


Position© 
Institution® 
数据 
数据 
数据 
数据 
数据 
Riji_Eve 
Riji_Eve 
数据 
数据 
数据 
Time© 
数据 
数据 
数据 
数据 
Place 
Place“ 
Riji_Rol® 
Place 
Riji Eve° 
Riji_Rol® 


Literatures© 


= 
aq 


CmNIN DA pwne | 


— — 
= iS 


U 
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(228 1) 
风格 Riji Styc 对 字体 Style_of typeface” Riji Styc Literatures 41 
对 文献 Style_of literature? Riji_Sty© Literatures© 42 
对 人 物 Style_of rolem Riji_Sty° Personc 43 
角色 Riji Rolc 创作 者 Riji creatore Riji_ Rolc Personc 44 
交往 人 物 Riji communicatore Riji_ Rol Person5 45 
政治 人 物 politician” Riji Rolc Person© 46 
历史 人 物 historical rolee Riji_Rol Person“ 47 
文献 Literatures5 保藏 机 构 preserved in Literatures5 数据 48 


4.6 基于 Protégé 的 本 体 模型 编辑 与 呈现 

通过 本 体 模 型 对 地 方 名 人 文献 资源 进行 
知识 抽取 、 融 合 与 重组 ， 可 加 速 推 动 特定 领 
域 知 识 由 结构 化 向 形式 化 转换 进程 。 由 于 构 
建 与 修正 本 体 需 耗费 大 量 时 间 且 反复 近 代 完 
善 ， 应 选用 常用 本 体 语言 及 自动 化 搭建 工具 
来 保障 与 提高 本 体 编辑 效率 。 在 本 体 语言 
方面 XML、OWL、RDF(S) 等 语言 都 是 
被 认定 为 可 共享 语义 网 内 容 的 标准 语言 ;在 
自动 化 软件 上 ，Ontolingua、OntoSaurus、 


Object property hierarchy 


Asserted ~ 7, - 
Vv @ ow!Thing 


mu date_of_admission 


ma date_of_birth 


= date_of_graduation 


= date_of_hire 
ma date_of opus 


= event_coordinate 


= event_place 
= has_country 
= has_literature 
=m has_role 

= historical_role 
ma Ins_position 
= Ins_transfer 
ma is_about 

= is_relate 


= locate_country 


@ CLO_Time = locate_site 


mm mentioned_country 


Vm owl:topObjectProperty 


WebOnto, Protégé 等 软件 都 能 够 接纳 多 种 
描述 语言 以 完成 本 体 模 型 的 开发 。 其 中 ， 
Protégé 是 由 斯 坦 福 大 学 生物 医学 信息 研究 中 
心 开发 的 本 体 自动 化 编辑 与 开发 工具 ， 拥 有 
二 次 开发 、 扩 展 模 型 、 插 件 丰 宣 和文 持 多 语 
种 输入 输出 等 功能 ， 可 以 为 研究 者 提供 一 个 
自 定 义 的 开源 环境 中。 基于 此 ， 此 次 围绕 地 
方 名 人 文献 知识 的 本 体 编辑 任务 以 语言 OWL 
和 工具 Protégé 为 支撑 展开 。CLO 基础 类 与 
属性 输入 如 图 2 所 示 : 


anem |Data property hierarchy 
Asserted ~ = 
了 -mm owl:topDataProperty 


mm end_time 
= name 
= has_coordinate 


2 地 方 名 人 文献 知识 本 体 基础 类 与 属性 输入 视图 


进入 Protégé 工具 页 面 , 在 本 体 “ 由 虚 入 实 ” 
的 过 程 应 首先 按照 基础 类 描述 术语 表 在 Protégé 
的 “classes” 模 块 中 创建 人 物 (CLO_Person ) 
和 日 记 (CLO Riji) 类 ， 再 通过 “hierarchy” 


模块 按照 层级 结构 逐 级 添加 人 物 概况 CCLO 
Person Bas ) 和 日 记 目 录 (CLO Riji Lis) 等 子 
类 ， 并 在 “prefix” 中 增加 GLO 前 级 ， 完 成 编 
辑 后 可 获得 图 3 右 侧 本 体 基础 类 层次 结构 视图 。 
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此 外 ， 还 可 以 基础 类 关系 与 属性 描述 术语 为 基 
础 ， 依 据 OWL/XML 格式 编码 对 各 基础 类 、 对 
象 属性 与 数据 属性 进行 定义 。 例 如 图 3 中 左 侧 


RDF/XML rendering 


<!-- http://www.CLOontology.com#CLO_Person_Ach --> 


<owl:Class rdf:about="http: //www.CLOontology.com#CLO_Person_Ach"> 


<rdfs:subClassOf rdf:resource="http: //www.CLOontology.com#CLO_Person"/> 


</owl:Class> 


<!-- http: //www.CLOontology.com#CLO_Person_Bas --> 


<owl:Class rdf:about="http: //www.CLOontology.com#CLO_Person_Bas"> 


<rdfs:subClassOf rdf:resource="http: //www.CLOontology.coméCLO_Person"/> 


</owl:Class> 


<!-- http://www.CLOontology.com#CLO_Person_Edu --> 


<owl:Class rdf:about="http: //www.CLOontology.com#CLO_Person_Edu"> 


<rdfs:subClassOf rdf:resource="http: //www.CLOontology.com#CLO_Person"/> 


</owl:Class> 
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RDF/XML 揭示 框 中 就 列 出 了 对 人 物 成 果 ( CLO_ 
Person Ach) 、 人 物 教 育 (CLO Person Edu ) 
和 人 物 概 况 ( CLO_Person Bas ) 的 编码 定义 。 


i 
CCLO_Person_Ach > 


cu 
2 


<=> 


APSE 


CLO_Person_Emp D 
—— 


is of D> 
7 ED „D 

Siss a 
A CLO_Place )<4—isa——{ CLO_countty > 
— Sects 


ae 


J 
<> em 
owl: Thing CLO_Position CLO_Riji_Rol 
SSE 
SS 
Geng a CLO_Riji_Lis itis) 
< > RE 
ee 
Terorii eve 


图 3 地 方 名 人 文献 资源 本 体 基 础 类 OWL/XML 格式 编码 与 层次 结构 视图 


同时 ， 参 照 图 2 将 CLO 各 对 象 属性 与 数据 
属性 输入 对 应 的 自动 化 操作 栏 中 ， 并 分 别 编辑 
定义 域 和 值 域 。 在 “Object properties” 模 块 中 
输入 关于 (is_about ) 、 生 年 ( date_of birth ) 、 
生地 (place_of birth ) 43 284F (date_of death ) 
等 32 项 对 象 属性 。 在 “Data properties” 模 块 中 
添加 字 (Person courtesyname ) 、 性 别 ( Person_ 


sex) 、 民 族 (Person ethnicgroup ) 与 就 读 院 校 


(Person adschool ) 等 16 项 数据 属性 。 在 定义 
类 和 子 类 以 及 对 象 和 数据 属性 后 可 通过 HermiT 
mae, RENIA KRKI ERE 
结构 ， 也 可 为 准确 提取 名 人 知识 及 其 日 记 元 
panne 看 义 内 容 提供 依据 。 最 后 在 Protégé 的 
“OntoGraf” 模 块 中 以 “Radial” 形 式 展示 地 方 
名 人 文献 资源 本 体 基础 类 与 属性 的 关系 ， 如 图 4 
所 示 : 


@ CLO _Riji Sty 
sae WS. 


和 
. b3 
\ 
(eam Da 
~ ~ 


@ CLO county 
ans 
Ss 
\ A 


@ CLO_Time 


| TA 
f 
L A 
PA 


图 4 地 方 名 人 文献 资源 本 体 基 础 类 与 属性 关系 视图 


O 实例 呈现 
及 《理学 斋 日 记 》 Sm 

实例 添加 与 研究 既是 本 体 修 正 的 关键 步 又 ， 
也 是 检验 知识 组 织 方案 适用 性 以 及 开展 地 方 文 


fil 


N 
Lo 
N 


献 资源 开发 的 重要 方式 。 而 构建 以 本 体 为 驱动 
的 名 人 资源 知识 组 织 方案 也 能 够 充分 将 异 源 文 
献 进行 结构 化 整合 , 并 利用 属性 界定 、 逻 辑 推理 、 
语义 查询 和 人 文 图 谱 来 获取 领域 细 粒 度 知识 与 
绘制 人 物 关 联 线索 ， 为 塑造 地 方 文化 形象 以 及 
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深入 挖 据 人 物资 源 内 涵 提 供 抓 手 。 
5.1 田 名 瑜 及 《 苗 学 裔 日 记 》 知 识 组 织 

湘西 土家 族 苗 族 自 治 州 地 处 湘 骂 渝 黔 四 省 
市 交界 处 ， 是 拥有 悠久 历史 文化 与 特色 民俗 、 
服饰 、 舞 蹈 和 饮食 的 少数 民族 聚居 地 ， 诞 生 了 
OAS. RAS. HAM, BARE BA a] a 
一 批文 化 与 科学 名 个 。 当 前 ， 围 绕 沈 从 文 、 
能 和 希 龄 、 田 名 瑜 与 黄 永 玉 的 研究 多 聚焦 于 文献 
学 与 艺术 学 领域 ， 在 资源 整理 与 利用 方面 也 更 
偏重 对 文本 内 容 的 剖析 与 考证 ， 尚 未 有 学 者 通 
过 数字 人 文 视角 与 技术 来 整合 与 开发 相关 名 人 
文献 资源 。 同 时 ， 日 记 作 为 一 种 可 以 直接 反映 
人 物 所 见 、 所 思 、 所 想 的 文体 ， 其 丰富 的 题材 
种 类 与 随 性 的 表现 方式 吸引 T 了 古往今来 诸多 文 
人 黑客、 仁人志士 驻足 赏 读 。 而 相 较 其 他 体裁 
文献 ， 日 记 更 容易 表现 作者 自身 个 性 与 作者 真 
实 境遇 ， 记 录 的 人 物 经 历 与 事件 也 具有 更 自然 


的 生活 气 县 ， 更 具备 文献 考证 、 艺 术 欣 赏 和 思 
想 教育 等 突出 价值 。 


基于 此 ， 本 文 实例 呈现 以 湘西 许 人 田 名 瑜 
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资料 及 其 手稿 作品 《 苦 学 帝 日 记 》 (1961 年 至 
1962 年 ) 为 依托 ， 通 过 “OCR+ 人 校 ” 模 式 数 
字 化 了 相关 书本 及 手稿 ， 结 合 数据 库 人 物资 料 
及 预 设 几 例 完成 了 异 构 文献 资源 内 容 的 整理 ， 
运用 LTP 语义 分 析 平 台 和 NLPIR 语言 处 理 系统 
抽取 人 物 与 文献 要 素 ， 并 根据 人 物 概 况 、 教 育 、 
工作 、 成 果 、 机 构 、 身 份 分 类 与 文献 目录 、 事 
件 、 人 情感 、 风 格 、 和 角色、 地 点 分 类 进行 实体 要 
素 的 划分 。 在 完成 要 素 抽取 与 分 类 后 ， 将 非 规 
范 性 表述 内 容 ( 绰号 、 简 称 、 方 言 、 错 字 等 ) 
进行 了 消解 与 消 歧 ， 对 文档 同 义 异 称 的 实体 如 
陶渊明 KR) 等 古代 人 物 名 与 字 所 遗 冲 突进 
行人 工 消解 ， 对 文档 同 称 异 义 的 实体 如 《诗经 》 
( 实 指 《 诗 经 说 略 》) 消除 了 指 代 歧义 。 将 抽 
取 与 整理 后 的 489 项 实例 根据 预 设 知识 框架 导 
入 CLO 地 方 名 人 文献 资源 本 体 模型 ， 并 根据 人 
物 基础 类 与 日 记 接触 类 分 别 对 实例 进行 对 象 属 
性 和 数据 属性 赋值 ， 再 使 用 Protégé 软件 中 的 
“OntoGraf” 模 块 实现 地 方 名 人 文献 资源 实体 要 
素 分 布 视图 ， 如 图 5 所 示 : 


$ 1 
te rnea NY li 
Pim ee eee es SAN | 
ll ¢ ete EBA x 


© nes 


Py > ace = 
sail + een 
LIA 7 


@ CLO_country 
i 
a A CLO_Lierature $ 《湘西 四 十 年 大 记事 》 | 
[BcoPae | _[ @ cro Inston > usaram P i 
oe s KASLE 
FA @ CLO Postion ff cp 
SO “4 Ye 
Zz a @ clo Tme kk ) 5 
Z ep 
ii 上 一 co 
@ CLO_Person_E 
一 CLO, 
CLO, 


a 
@ CLO Rij Roi 


GA LMU | KS ~ = 
H WS RSO 
UJ ANS SS 


Z H 
= ZAP A AL ` 
ARRE er WE Peman 


(e teak 
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图 5 地 方 名 人 文献 资源 实体 要 素 分 布 视图 (以 田 名 瑜 与 《 苦 学 帝 日 记 》 为 例 ) 


5.2 田 名 瑜 人 物 知识 关联 分 析 

由 于 “OntoGraf” 模 块 显示 内 容 与 显示 字 
体 页 面 受 限 ， 通 过 SPARQL 查询 语言 检索 “ 田 
名 瑜 ” 并 依据 “Grid-Alphabetical” 模 块 形成 关 
联 可 见 图 6。 图 中 不 同 来 源 的 人 物 知 识 可 以 通过 
自 建 本 体 CLO 中 相同 的 基础 类 及 相近 的 属性 特 


4 


征 实现 知识 聚合 以 及 结构 化 分 布 ，CLO 模型 也 
能 够 较为 清晰 直观 地 梳理 人 物 在 各 个 维度 的 概 
况 与 经 历 并 进行 知识 关联 。 

在 人 物 概 况 方 面 ， 田 名 瑜 的 字 (个 石 ) 、 
生年 (1890 年 )、 生 地 (凤凰 县 )、 卒 年 ( 1981 
年 ) 以 及 身份 ( 南 社 诗人 、 土 家 族 诗人 、 湘 西 
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作家 与 同盟 会 成 员 ) 等 知识 实现 共 现 。 在 人 物 
成 果 方 面 ， 田 名 瑜 所 车 作品 (《 昔 学 斋 日 记 》 
《 苦 学 毅 诗 稿 》《 早 红 词 》《 湘 西 四 十 年 大 事 
记 》《 湘 西 苗族 记 》、《 诗 经 说 略 》《 楚 游 导 
录 》《 残 杂 许 稿 》 与 《湘西 献 征 》) 实现 了 整 
合 ， 能 够 为 后 续 文 献 内 容 的 组 织 与 关联 提供 杠 
架 。 在 工作 经 历 方面 ， 田 名 瑜 的 任职 地 及 职 

(凤凰 演讲 所 所 长 、 文 昌 阁 执教 、《 沅 酒 日 报 》 
编辑 与 总 经 理 、 湘 西 护 国 军 秘书 、 大 庸 县 县 长 、 


g er 
O 《残杀 诗 稿 ) 
E REELE] 
I 


F m 
HO 《湘西 四 十 年 大 记事 》 ~~ 只 


i 


应 


会 人 物 教育 
Page 


ae ae 


© 《湘西 献 征 》 
@ 《 田 名 斑 诗 词 选 ) 
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沈 陵 县 县 长 、 黔 阳 县 县 长 、 第 十 集团 军 秘书 、 
湖南 省 政府 秘书 、 凤 凰 县 县 长 、 湖 南 省 文物 保 
管 委员 会 委员 与 国务 院 文史 人 研究 馆 馆 员 ) 也 实 
现 了 组 织 关 联 ， 能 够 为 人 物 仕途 画像 的 绘制 提 
供 依 据 。 此 外 ， 通 过 亲属 与 师 从 属性 的 关联 还 
能 够 揭示 田 名 瑜 与 板 父 田 星 六 的 多 重 关系 ， 结 
合 任职 地 、 人 物 与 时 间 的 关联 有 助 于 辨析 田 名 
瑜 在 文昌 阁 执 教 期 间 是 否 教导 过 著名 作家 沈 从 
文 等 。 


@ 《 茄 学 商 诗 稿 》 


F 
- | @ 国务 院 文史 研究 馆 


Poa Le mmaxonrene 上》 委员 ] 


N 
\ 
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图 6 地 方 名 人 知识 关联 视图 (以 “ 田 名 瑜 ” 为 检索 词 ) 


5.3 《至 学 裔 日 记 》 知 识 关 联 分 析 
通过 SPARQL 查询 语言 检索 “《 苗 学 裔 日 
记 》” 并 依据 “Grid-Alphabetical” 模 块 形成 关 
联 可 见 图 7。 图 中 《理学 毅 日 记 》 记 载 内 容 根据 
CLO 本 体 模 型 可 拆 分 为 目录 、 事 件 、 角 色 、 情感、 
风格 与 地 点 6 个 类 别 ， 各 维度 知识 在 基础 类 及 
属性 特征 引导 下 实现 了 知识 共 现 与 知识 关联 ， 
能 够 更 为 直观 地 呈现 日 记 核心 事件 、 人 物 关 联 
与 热点 地 区 , 也 能 为 进一步 演绎 人 物 行为 细节 、 
揭示 风格 评价 与 推理 情感 倾向 等 提供 样本 。 
在 本 体 模 型 中 可 以 通过 设置 Inverse 
functional ( 互 3# ) , Transitive ( 传递 )、 
Symmetric ( 对 称 ) | Asymmetric ( 非 对 称 ) 、 
Reflexive ( AJ ) 等 关系 推理 准则 进行 知识 推理 
与 评估 。 将 本 体 中 已 有 基础 类 与 属性 设置 为 对 
应 关系 ， 根 据 基础 类 与 属性 已 有 赋值 可 推理 出 
新 的 关联 并 修改 错误 关联 ， 以 此 提升 知识 关联 
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的 精准 度 。 在 完成 知识 推理 后 ， 可 进一步 实现 
角色 、 事 件 、 作 品 与 情感 的 关联 。 在 实现 文本 
知识 关联 后 可 看 出 ， 田 名 瑜 谈 及 亲属 ( 纯 儿 、 
FH). WO, EPN) 时 ， 所 涉及 的 高 频 事 件 E 
院 、 下 乡 、 送 信 ) 多 包含 关怀 情感 (关怀 备至 、 
牵 肠 挂 肚 、 咕 寒 问 暖 ) 。 田 名 瑜 谈 及 交往 人 物 ( 沈 
从 文 与 张 兆 和 ) 时 ， 所 涉及 的 高 频 事件 ( 题词 、 
aA EM) 体现 了 真挚 情感 〈 桃李 春风 与 谨 
WAHE) ) ， 进 一 步 印证 了 田 名 瑜 与 沈从文 的 师 
生 关 系 。 田 名 瑜 谈 及 历史 人 物 〈 陶渊明 、 欧 阳 
修 、 李 白 ) 时 , 常用 诗人 作品 (4《 归 园田 居 》《 李 
太白 集 》) 所 载 诗句 与 意境 来 表达 对 秀丽 风光 
与 景 秀 河山 的 感慨 ， 也 时 常用 以 印证 自己 所 作 
诗句 并 抒发 情感 ( 翡 秋 怀 人 、 寄 情 山 水 等 ) 。 
此 外 ,日 记 所 载 政 治 人 物 ( 尼 赫 鲁 、 表 尼 迪 、 
HERRE) 与 国际 事件 ( 中 印 边境 自卫 反击 
战 、 阿 波 罗 计 划 等 ) 也 形成 了 情感 (OCT 
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JAAR AED) RK., 可 以 看 出 , 通过 “ 角 聚合 ， 辅 助人 文学 者 开展 各 维度 细 粒 度 知识 梳 
色 一 事件 (作品 ) 一 情感 ”等 规则 架构 进行 理 与 发 现 , 也 可 通过 频 词 转换 等 手段 实现 人 物 、 
识 推 理 能 够 有 效 梳理 日 记 各 类 要 素 并 将 其 关联 ”事件 情感 倾向 等 方面 研究 。 
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图 7 地 方 名 人 文献 知识 关联 视图 (以 《 昔 学 斋 日 记 》” 为 检索 词 ) 


综 上 操作 ， 研 究 以 田 名 瑜 及 其 作品 《 苦 学 斋 ”可 根据 本 体 抽取 各 类 要 素 ， 应 用 Gephi、QGIS、 
日 记 》 为 例 ， 通 过 异 构 文 献 资 源 内 容 整 理 、 地 方 Cytoscape 等 可 视 化 工具 开展 地 点 时 空 网 络 揭示 、 
名 人 资源 本 体 构建 、 实 体 与 实体 关系 融合 和 地 方  ” 文 段 情绪 归 类 与 交互 行为 分 析 ， 还 可 以 将 日 记 内 
名 人 资源 知识 应 用 4 项 步骤 完成 了 地 方 名 人 资源 容 整合 人 Neo4j 等 图 数据 库 ， 为 地 名 名 人 文献 资 
的 知识 组 织 与 关联 研究 ， 流 程 简 图 见 图 8。 后 续 。” ” 源 知 识 库 的 构建 与 开放 获取 服务 的 开展 提供 便利 。 


人 物 :《 凤 凰 县 志 》\《 湘 西 文化 大 辞典 》\ 湘 西 文史 资料 
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记 》\《 楚 游 忆 录 》\《 杜 诗 选 抄 注解 》.… 
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8 地 方 名 人 文献 资源 知识 组 织 流程 简 图 (以 田 名 瑜 与 《 苦 学 帝 日 记 》 为 例 ) 
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<= 
6 研究 总 结 

开展 地 方 名 人 文献 资源 知识 组 织 与 关联 的 
目的 在 于 整合 异 构 文献 资源 、 揭 示人 物 及 文献 
知识 特征 并 进一步 精 化 名 人 文献 资源 描述 准 度 
与 粒度 。 本 文 以 异 构 文献 资源 内 容 整理 、 地 方 
名 人 资源 本 体 构建 、 实 体 与 实体 关系 融合 和 地 
方 名 人 资源 知识 应 用 4 个 步骤 为 基础 ， 提 出 了 
一 套 开发 与 利用 地 方 名 人 资源 的 知识 组 织 与 关 
联 方案 ， 结 合 地 方 名 人 文献 资源 特征 、 人 物资 
源 描述 框架 分 别 将 人 物 知识 框架 和 文献 知识 框 
架 组 合成 地 方 名 人 文献 本 体 模型 CLO。 在 实例 
部 分 , 以 湘西 诗人 田 名 瑜 资料 及 其 作品 为 依托 ， 
实现 了 田 名 瑜 及 其 未 刊 手稿 《 苦 学 斋 日 记 》 细 
粒度 知识 检索 与 特性 揭示 ， 验 证 了 CLO 本 体 模 
型 在 地 方 名 人 文献 资源 整理 与 开发 领域 的 可 操 
性 与 实用 性 。 同 时 ， 本 研究 也 探究 了 数字 人 文 
视角 下 地 方 文献 资源 研究 与 开发 的 优势 ， 总 结 
如 下 : 四 思维 互利 ， 优 势 互补 。 相 较 于 传统 文 
献 学 研究 思维 与 方法 ， 数 字 人 文 所 涉及 工具 、 
技术 与 算法 能 够 将 地 方 文献 的 “文字 ”研究 拓 
展 为 “文字 + 数据 ”研究 ， 突 破 文理 壁 驳 的 同 
时 能 够 将 语言 描述 优势 同 数理 运算 优势 相 结合 ， 
实现 定性 与 定量 思维 的 接轨 ， 丰 富 地 方 文献 研 
究 成 果 产 出 形式 和 产 出 领域 。@ 视 角 宽广 ， 结 
构 趋 同 。 数 字 人 文 为 地 方 名 人 文献 资源 的 开发 
与 利用 提供 了 跨 学 科 的 应 用 视角 ， 推 动 了 地 方 
名 人 多 源 异 构 资源 的 结构 趋同 与 外 部 异 构 资源 
知识 互联 ， 在 提高 资源 开放 性 、 利 用 率 与 分 享 
价值 的 同时 ， 为 地 方 文 献 保藏 机 构 进 一 步 开展 
知识 聚 类 研究 、 人 文 知识 图 谱 绘 制 以 及 特色 资 
源 知识 发 现 等 业务 探 明了 方向 。 

本 研究 存在 以 下 不 足 : 地 方 名 人 文献 资 
源 知识 组 织 与 关联 方案 更 偏重 于 工程 化 操作 ， 
视角 较为 宽泛 ; 研究 对 象 仅 为 日 记 类 文献 ， 
还 需 针 对 其 他 著作 开展 实证 研究 。 后 续 将 参 
照 此 套 方案 开展 地 方 名 人 知识 库 构 建 ， 期 盼 
在 实际 应 用 中 能 够 不 断 调整 方案 结构 、 类 与 
属性 ， 为 地 方 名 人 文献 资源 的 开发 与 利用 提 
供 借鉴 和 依据 。 
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Research on Knowledge Organization and Correlation of Local Celebrity Literature 
Resources from the Perspective of Digital Humanities 
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*School of literature and journalism, Jishou University, Jishou 416000 

Abstract: [Purpose/Significance] Starting from the current situation of the construction of local 
celebrity literature resources, this paper explored the knowledge organization and association scheme of 
local celebrities’ multi-source heterogeneous resources from the perspective of Digital Humanities, so as to 
provide reference for GLAM institutions to carry out local celebrity knowledge management and services. 
[Method/Process] Referring to the relevant development ideas of celebrity resources at home and abroad, 
this paper put forward a set of local celebrity resource knowledge organization scheme, which includes 
four steps: content sorting of heterogeneous document resources, ontology construction of local celebrity 
resources, relationship fusion between entities and entities, and knowledge application of local celebrity 
resources. Combined with the characteristics of local celebrity resource and the character resource description 
framework, the local celebrity resource ontology model CLO is built. [Result/Conclusion] Relying on Tian 
Mingyu, a poet in Western Hunan, and his manuscript “Diary of study hard”, the knowledge organization 
and correlation disclosure of local celebrity and his diary works are realized according to the organization 
steps and protégé tools, which verified the feasibility and operability of this set of organization scheme. 
While broadening the perspective of local literature development, this paper also provided reference for the 
construction of celebrity knowledge base and the development of characteristic humanistic services in ethnic 
areas. 
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